2024Q1商用LLM API进展简评【2024.4 W1】
0、前言
本期已经是“商用LLM API进展扫描”系列的第3篇了,前序文章:
本期主要讨论从2024.2.1-2024.4.5的商用LLM API的进展,以实际开放API的能力为准。由于国内的不少玩家目前并不活跃,所以本次会忽略一些玩家。
本系列的目的是为了让已经不关注商用LLM API进展的人能够了解目前进展。在我看来商用LLM API生态的进展对于GenAI生态来说是很重要的事情,而这目前是很多人所忽略的。
从本期开始,会把VL模型和语音相关的模型纳入汇总范围。
1、总评
2024年Q1的商用LLM API进展可谓争奇斗艳,尤其是海外,各家都有重量级的新模型推出。
本系列之前的文章并不涉及模型能力的评价,更多是从API提供的功能来评价的。但我逐渐发现很多人对于这方面的关注太少,所以面对目前的各种厂家API,连推荐尝试的顺序都没有头绪。所以本节会给一个我个人目前的主观分级:
海外第一梯队:
OpenAI的GPT-4系列
Anthropic的Claude 3 Opus
Google的Gemini Pro 1.5
Mistral的Mistral Large
国内第一梯队:
第一梯队的效果已经和GPT-4有可比较性了。
智谱的GLM-4
阿里巴巴的qwen-max系列
百度的ERNIE-4.0(ERNIE-4.0系列最近已经不活跃)
国内近期活跃的玩家:
Minimax的abab6
Moonshot的moonshot-v1
阶跃星辰的Step-1(Step-2尚未开放)
字节的Skylark2(信息不足)
讯飞的星火 3.5
百川智能的Baichuan2/3
零一万物的yi-34b-chat
DeepSeek
超长上下文(>500k token)赛道:
该赛道的各家起步都是至少1M token,但目前都没有大量开放使用,不知道谁会是第一家开放的。
Google 的 Gemini 1.5 Pro(尚未公开 long context 的API)
Anthropic 的 Claude 3(尚未公开 long context 的API)
Moonshot (尚未公开 long context 的API)
2、海外第一梯队
目前即使排除OpenAI,海外第一梯队生态的综合力量也是强于国内的,所以本文首先介绍海外玩家。
2.1、OpenAI
https://platform.openai.com/docs/models
https://platform.openai.com/docs/api-reference/
OpenAI在2月之后没有明显的更新,仍然是1月发布的:gpt-4-0125-preview和gpt-3.5-turbo-0125。
API特性简述:
模型梯队:gpt-3.5-turbo、gpt-4-turbo
VL模型:gpt-4-vision
语音识别模型:whisper-1;语音合成模型:tts-1、tts-1-hd。
Function calling、system prompt、json mode、logit_bias、logprobs
gpt-4-turbo是128k context,gpt-3.5-turbo是16k context
微调API:提供gpt-3.5-turbo的微调
Assistants API https://platform.openai.com/docs/api-reference/assistants
传闻中的GPT-4.5仍然难产,更别说GPT-5。
2.2、Anthropic
https://docs.anthropic.com/claude/reference/messages_post
https://www.anthropic.com/news/claude-3-family
Anthropic在3月发布的Claude 3系列非常亮眼,无论是Claude 3 Opus疑似已经略微超过GPT-4的表现,以及Haiku、Sonnet的不错性价比,再加上全线模型未来都会支持1M token context,而且API也已经敞开可用。让人明显改观。
API特性简述:
模型梯队:claude-3-haiku、claude-3-sonnet、claude-3-opus
VL模型:claude-3-sonnet、claude-3-opus支持图像输入
Function calling、system prompt、(通过function calling模拟json mode)
claude-3系列目前提供200k context,输出最大4k,未来会扩展到1M context
最小规模的claude-3-haiku有明显为简单任务进行特化,我对此评价很高。
2.3、Google
https://ai.google.dev/models/gemini
Google自从Gemini 1.0 Pro发布之后,终于感觉是上道了。不过Gemini Ultra迟迟没有公开。
API特性简述:
模型梯队:gemini-1.0-pro、gemini-1.5-pro(preview中)
VL模型:gemini-1.0-pro-vision
Function calling
gemini-1.0-pro提供30k+2k输出 context、gemini-1.5-pro提供1M+8k输出 context
微调API:提供gemini-1.0-pro的微调
知识库API:Corpus https://ai.google.dev/api/rest/v1beta/corpora
Google的Gemini 1.5 Pro是全球最早发布1M context能力的厂家之一。
从Gemini 1.0开始,Google的LLM发布速度明显变快了,不过Gemini Ultra发布难产的阴霾仍然存在。
2.4、Mistral
https://docs.mistral.ai/api/
Mistral凭借着SMoE模型的开源,以及Mistral Large模型,成功进入第一梯队。
API特性简述:
模型梯队:mistral-small、mistral-medium、mistral-large
Function calling https://docs.mistral.ai/guides/function-calling/
3、国内第一梯队
3.1、智谱 GLM
https://open.bigmodel.cn/dev/api#language
1月发布的GLM-4是目前国内比较接近于GPT-4能力的模型了,并且对于OpenAI在文本模态各方面的跟进是目前国内最全面和最快的。
API特性简述:
模型梯队:GLM-3-Turbo、GLM-4
VL模型:GLM-4V
Function calling、RAG、web search插件、System prompt
GLM-4支持128k context,输出4k,GLM-3-Turbo也是128k context
3.2、阿里巴巴 通义千问
https://help.aliyun.com/zh/dashscope/developer-reference/api-details
阿里的qwen系列的开源模型是国内目前最活跃的,而且各方对其开源模型的效果都比较认可,qwen-72B是国内开源模型中唯一获得OpenAI对标认可的模型。qwen的闭源模型也是很活跃的。
API特性简述:
模型梯队:qwen-turbo、qwen-plus、qwen-max
VL模型:qwen-vl-plus、qwen-vl-max
语音识别模型:qwen-audio-turbo
Function calling、支持实时搜索,json mode,system prompt
默认是6k+1.5k输出 context,并提供30-32k左右的长上下文特化版本。
微调API:提供qwen-turbo和一些开源模型的微调
3.3、百度 ERNIE
https://cloud.baidu.com/doc/WENXINWORKSHOP/s/clntwmv7t
自从百度在2023年10月发布了ERNIE 4.0之后,是国内最早宣称对标GPT4的,就再无大的动静。从文档上来看还有新的ERNIE Speed系列模型推出,也实现了128k context,但宣传上再无大的动静。让人感觉已经在逐步掉队。
API特性简述:
模型梯队:ERNIE 3.5、ERNIE 4.0、ERNIE Speed、ERNIE Lite、ERNIE Tiny等,定位上感觉有些混乱。
ERNIE 4.0支持:function calling,system prompt,支持实时搜索(带citation),json mode。
ERNIE 4.0支持5k+2k输出 context,ERNIE Speed-128k特化版支持128k context
微调API:提供ERNIE-Speed、ERNIE-Lite、ERNIE-Tiny系列和一些开源模型的微调
4、国内剩余的活跃的玩家
4.1、Minimax abab
https://api.minimax.chat/document/guides/chat-model/pro/api?id=6569c85948bc7b684b30377e
Minimax在1.16号刚发布了abab6
模型梯队:abab5.5s-chat、abab5.5-chat、abab6-chat
语音合成:T2A、T2A Pro、T2A Large、T2A Stream
system prompt,角色扮演的细节指定,function calling,支持实时搜索,json mode,知识库检索、raw_glyph 输出格式控制。
abab5.5s-chat支持8k context,abab5.5-chat支持16k context,abab6-chat支持32k context
类似OpenAI的Assistants API
微调API:似乎只支持abab5.5s-chat
Minimax是从特化角色扮演类需求切入的。
4.2、Moonshot
https://platform.moonshot.cn/docs
Moonshot在10月首发,内测了很久后终于在2024.2公开了API。在3月发布了1M context的chatbot内测,没有发布到API的时间消息。
模型梯队:v1
支持system prompt和文件RAG
4.3、字节跳动 Skylark
https://www.volcengine.com/docs/82379/1133189
字节在基座LLM上一直都没有什么宣传,不过在产品方面还是比较活跃的。
模型梯队:Skylark2-lite、Skylark2-pro-turbo、Skylark2-pro、Skylark2-pro-character。
Skylark2-pro有32k context特化版本,其他一般是4k-8k。
火山引擎上有独立的语音合成和语音识别服务。https://www.volcengine.com/docs/6561/0
微调API:skylark lite/plus/pro
Skylark系列各模型的效果很少看到有人测试,具体不详。
4.4、讯飞 星火
https://www.xfyun.cn/doc/spark/Web.html
距离本系列上期更新没有变化。
讯飞在1.30发布了V3.5版本。
模型梯队,V1.5、V3.0、V3.5,但价格上V3.0-V3.5定价是一样的。
VL模型:疑似V3.0及以后的模型都支持图像输入。
V2.0-V3.5:8k context window,支持一些固定种类的实时信息插件
V3.0开始支持function calling(但官方文档建议在3.5版本上使用function calling)
V3.5支持system prompt
微调API:V1.5和V3.0
V2.0版本看起来已经从模型梯队中剔除,V3.0版本应该也会被废弃。
4.5、阶跃星辰
https://platform.stepfun.com/docs/Chat/chat-completion-create
阶跃星辰之前一直蛰伏,直到2024年3月才开始公开宣传。Step1对标超过gpt-3.5-turbo
模型梯队:step-1-200k
VL模型:Step-1V(尚未接入API)
200k context
4.6、百川智能 Baichuan
https://platform.baichuan-ai.com/docs/api
距离本系列上期更新没有变化。
百川智能在1.29发布了Baichuan3,但截至目前没看到Baichuan3的API放出。百川没有开放对个人的API。
模型梯队:Baichuan2-Turbo、Baichuan2-53B。长上下文特化版本Baichuan2-Turbo-192k
支持实时搜索,知识库检索(带citation)
Baichuan2-Turbo的context window能力语焉不详
通过特化的Baichuan-character-*模型支持角色扮演
百川目前似乎已经进入蛰伏状态,再加上API方面没有敞开,在逐渐从API用户的视野中消失。
4.7、零一万物 Yi
https://platform.lingyiwanwu.com/
零一万物在2024年3月才开放API。
模型梯队:yi-34b-chat、yi-34b-chat-200k
VL模型:yi-vl-plus
4.8、幻方 DeepSeek
https://platform.deepseek.com/docs
距离本系列上期更新没有变化。
模型梯队:deepseek-chat
16k context
5、功能维度总结
5.1、Function Calling
Function calling虽然可以用prompt进行模拟,但考虑到各种情况结果的处理和目前应用开发者的普遍能力情况,我建议应用开发者还是使用支持function calling的模型或至少支持json mode输出的模型。
目前来看,全球范围内第一梯队的各家都已经标配该功能,该功能的必要性已经是共识。
5.2、Long Context
足够大的context window是不少场景的刚需,如果只有2-4k context的LLM,不少任务要做的非常复杂甚至无法实现。
从各家情况来看,实现至少100k context的能力是未来留在第一梯队的特征之一。
有一些玩家已经开启了超长context能力的竞争(>1M token),这方面的应用价值和成本还有待观察。
5.3、多步推理和决策能力的改进
目前在各家LLM供应商侧还看不到任何征兆。LLM API之上的Agent框架中,也没有任何有希望落地的方案。
总体而言就是还不要指望。
5.4、追上GPT4成为第一梯队的标准
目前来看,想要能够保持在第一梯队中,至少要实现在效果上接近GPT4目前的能力。
6、本期总结
对比上一篇,已经有一些供应商已经被我列入不在活跃的范围。虽然旧玩家在逐步退出,但仍然有令人激动的新玩家带着它们的优秀作品入场。
不过整个生态还并没有成熟,我一直强调的function calling功能,直到本次整理才算是大家基本补齐。
突然会有这么多玩家开始打1M token context的牌是让我有些意外的,不过这条线离使用还有一些问题需要解决。
Sam Altman过去吹过的牛已经足够多了,从现在开始已经可以说不能轻信Altman了,我们怀念Ilya还在发声的日子。GPT-4.5的难产也说明了OpenAI并没有我们幻想的那么强。
不知道LLAMA3会从哪个方面进行突破,让我很好奇。
本期没有做太多展望性的讨论,因为这计划在另外的文章中进行,本文只是更新信息。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式。
希望留言可以到知乎对应文章下留言。
本文于2024.4.6首发于微信公众号与知乎。
知乎链接 https://zhuanlan.zhihu.com/p/690945294